O ON DU A UN Be 


W U U U UUMVUUUUUVUVNNNNNNNNNN B hehehe RP h RP RP RP BB 
O ON DU BPWNYHPRP OF UO WON DUN RA UU NBE FO UO WON DUN RA UW NBEO 


基于 聚 类 的 星系 光谱 分 析 
KE”, Keii, RRt 
(1. 中 国 科学 院 光 学 天 文 重 点 实验 室 (国家 天 文 台 ) ， 北 京 100101; 
2. 中 国 科学 院 大 学 ， 北 京 100049) 
摘 要 : 各 类 大 型 巡天 项 目 产生 了 海量 天 文 数据 ， 因 此 需要 研究 适用 于 大 规模 数据 的 光 
谱 自 动 处 理 方法 。 传 统 的 基于 谱 线 检测 或 BPT 图 的 星系 光谱 分 类 方法 难以 直接 应 用 于 星系 
光谱 自动 分 类 pipeline， 相 比 之 下 基于 机 器 学 习 的 光谱 自动 分 析 更 适用 于 海量 天 文 数据 的 分 
类 研究 。 本 文 提 出 了 一 种 基于 双 层 聚 类 的 星系 光谱 分 析 方法 。 第 一 层 采 用 k 均值 聚 类 算法 将 
星系 光谱 聚 为 吸收 线 星系 和 发 射线 星系 ， 第 二 层 使 用 CLARA (Clustering LARge 
Applications ) 聚 类 算法 将 发 射线 星系 聚 为 5 给 。 对 LAMOST DRS 的 星系 数据 进行 实验 ， 其 
结果 表明 : (1) 第 一 层 均 值 聚 类 能 够 成 功 将 星系 光谱 分 为 吸收 线 星系 和 发 射线 星系 ， 聚 
类 化 与 基于 谱 线 检测 的 分 类 结果 基本 一 致 。 (2 ) 第 二 层 CLARA 聚 类 结果 能 够 在 BPT 图 中 
反映 出 不 同 的 星系 类 型 。 (3 ) 光谱 聚 类 结果 与 颜色 星 等 图 分 类 存在 预期 的 相关 性 。 (4) k 
均值 聚 类 和 CLARA 聚 类 能 够 适用 于 大 规模 数据 自动 分 析 处 理 , 聚 类 结果 能 够 很 好 地 反映 出 
BAM MER FR LIFE, SBE TVA Lik A HSK pipeline 提供 模板 。 
关键 词 : LAMOST; RH; ”星系 光谱 分 类 ; 大 样本 光谱 分 析 ; 
中 图 分 类 号 : P157.1 ”文献 标识 码 : A 文章 编号 : 


谱 分 类 对 于 研究 星系 的 形成 与 演化 具有 重要 意义 。 传统 星系 分 类 方法 包括 : 基于 
劲 分 类 法 ,根据 星系 外 形 将 星系 分 为 椭圆 星系 、 旋 涡 星系 、 棒 旋 星系 和 不 规则 星 
于 颜色 的 分 类 法 ，Strateva 中 分 析 SDSS 数据 时 发 现 颜色 星 等 图 服从 双 峰 分 布 ， 蓝 色 星 
和 红色 星系 各 有 峰值 , 双 峰 之 间 为 绿 谷 ; 以 及 基于 光谱 的 Baldwin, Phillips, Terjevich (BPT) 
断 图 中 的 分 类 方法 ， 经 过 多 年 的 改进 形成 了 基于 线 强 比 诊断 图 的 分 类 方法 ， 目 前 常用 经 验 
分 割 线 有 Kauffmann 提出 的 用 于 识别 纯 恒 星 形成 星系 (Star-Forming, 简称 SF) Marz"), 
Kewley 等 人 提出 的 用 于 识别 纯 活 动 星系 核 星 系 《AGN) 的 分 割 线 内 ， 以 及 Kewley” 和 Cid 
Fernandesla 分 别提 出 的 用 于 区 分 LINER (Low-Ionization Nuclear Emission-Line Region) 星系 
和 Seyfert2 星系 的 分 割 线 。 

大 型 巡天 项 目的 实施 为 天 文 领域 提供 了 海量 光谱 数据 ， 例 如 24F、6dF、RAVE、SDSS、 
LAMOST、GAIA 等 ， 其 中 LAMOST DRS 发 布 星系 光谱 多 达 15 万 余 条 ， 必 须 研 究 光 谱 自 
动 分 类 技术 用 于 大 规模 光谱 数据 的 分 类 研究 。 传 统 的 基于 谱 线 检测 或 BPT 图 的 星系 光谱 分 
类 方法 需要 进行 星 族 成 分 合成 ， 由 于 此 过 程 复 杂 且 耗 时 , 不 适用 于 海量 光谱 数据 的 处 理 , 无 
法 直接 用 于 光谱 自动 分 类 pipeline， 相 比 之 下 ， 基 于 机 器 学 习 的 光谱 自动 分 类 方法 更 适用 于 
海量 天 文 数据 的 分 析 研 究 。 目 前 有 许多 机 器 学 习 方 法 成 功 应 用 于 天 体 分 类 的 案例 , 包括 监督 
型 和 无 监督 型 分 类 方法 。 无 监督 型 的 分 类 方法 有 主 成 分 分 析 (PCA) 法 ， 它 广泛 运用 于 星系 
光谱 的 识别 与 分 类 中 , 例如 SLOAN 巡天 项 目 中 的 光谱 处 理 系统 就 是 利用 星系 光谱 主 成 分 进 
行星 系 光 谱 的 识别 中， 另外 Almeida” RIK k 均值 方法 应 用 于 星系 光谱 分 类 中 ， 分 类 结果 


的 哈 
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能 很 好 地 体现 星系 演化 过 程 。 监 督 型 分 类 方法 有 许多 ， 例 如 文 [9] 使 用 基于 Fisher 判别 分 析 
的 有 监督 特征 提取 方法 对 类 星体 和 正常 星系 分 类 ， 文 [10] 使 用 支持 向 量 机 方法 对 活动 天 体 和 
非 活动 天 体 分 类 ， 文 [11] 使 用 决策 树 方法 对 星系 形态 学 分 类 。 

聚 类 属于 无 监督 型 方法 ， 具 有 算法 简单 、 收 和 敛 速度 快 和 准确 率 高 的 特点 。 聚 类 主要 依赖 
于 数据 特征 进行 自动 分 类 ， 过 程 独 立 且 受 主观 因素 影响 小 ， 相 较 于 监督 型 方法 ,不 需要 提供 
已 有 标签 数据 进行 训练 ， 同 时 聚 类 结果 中 数量 较 少 的 簇 有 助 于 发 现 稀 有 天 体 。 本 文 针 对 
LAMOST DR5 中 星系 光谱 数据 ， 设 计 了 双 层 聚 类 方法 对 星系 光谱 进行 聚 类 分 析 。 本 文 结 构 
如 下 : 第 1 节 为 双 层 聚 类 方法 介绍 ， 第 2 节 介 绍 了 星系 光谱 聚 类 实验 ,包括 预 处 理 方法 、 实 
验 步 又 和 参数 选择 等 , 第 3 节 对 实验 结果 进行 分 析 ， 从 聚 类 结果 是 否 有 效 和 是 否 具有 物理 性 
质 两 方面 分 析 , 将 聚 类 实验 结果 与 基于 谱 线 检测 、BPT 图 和 颜色 星 等 图 的 分 类 结果 进行 比较 ， 
第 4 节 为 结论 


1 双 层 聚 类 方法 


针对 星系 光谱 特点 和 不 同 聚 类 算法 的 特点 ,本文 提出 了 双 层 聚 类 方法 对 星系 光谱 进行 聚 
类 分 析 。 第 一 层 采用 均值 聚 类 算法 中 将 星系 光谱 分 为 吸收 线 星系 和 发 射线 星系 , k 均值 聚 
类 算法 简单 ， 能 够 快速 收敛 ,对 于 大 数据 处 理 具 有 伸缩 性 ， 适 用 于 大 规模 星系 光谱 处 理 。 第 
二 层 采用 CLARA 聚 类 算法 中 将 发 射线 星系 聚 为 5 个 子 类 ，CLARA 算法 简单 ， 对 噪声 不 敏 
感 ， 适 用 于 大 规模 数据 。 

1.1 均值 聚 类 算法 

k 均值 (k-means) 聚 类 算法 的 核心 内 容 就 是 将 数量 为 n 的 样本 划分 为 k 类 ， 并 且 每 个 
样本 点 到 聚 类 中 心 的 距离 平方 和 最 小 。 

k-means 算法 基本 步骤 如 下 : 

输入 : n 个 样本 和 聚 类 个 数 ko 

输出 : 将 样本 划分 为 k 类 。 

(1) 从 nn 个 样本 中 选取 个 初始 点 作为 初始 聚 类 中 心 ; 

(2) 计算 每 个 样本 点 与 聚 类 中 心 的 距离 ， 将 样本 划分 到 距离 它 最 近 的 聚 类 中 心 所属 的 


类 ; 


(3) 重新 计算 每 一 类 中 所 有 样本 点 的 平均 值 作为 新 的 聚 类 中 心 ， 并 计算 每 个 样本 点 到 
它 所 在 类 的 聚 类 中 心 的 距离 平方 和 D; 
(4) 判断 聚 类 中 心 和 D 是 否 改变 ， 若 改变 ， 更 新 聚 类 中 心 后 重复 2、3 步 ， 否 则 聚 类 


结束 。 
影响 聚 类 效果 的 因素 有 很 多 , & 值 的 选取 、 初 始 聚 类 中 心 的 选取 方法 以 及 距离 测度 方法 
都 会 影响 聚 类 效果 。 大 值 的 选取 方法 包括 赁 经 验 选 取 和 按 密 度 选 取 。 挑 选 初始 聚 类 中 心 常用 
的 方法 有 四 种 。 一 是 随机 选取 k 个 样本 作为 初始 聚 类 中 心 ; 二 是 随机 采用 样本 空间 中 10% 
的 数据 做 预 聚 类 ， 预 聚 类 的 初始 聚 类 中 心 也 是 随机 挑选 的 ; 三 是 根据 样本 的 取 值 范围 均匀 的 
随机 选取 大 个 聚 类 中 心 ; 四 是 考虑 权重 的 kmeans++ 方 法 ， 随 机 选取 第 一 个 聚 类 中 心 后 ， 计 
算 所 有 点 到 此 聚 类 中 心 的 距离 , 将 距离 作为 权重 来 选择 下 一 个 聚 类 中 心 , 目的 是 使 距离 大 的 
点 被 选中 的 概率 更 大 一 些 ,然后 重复 选取 上 个 聚 类 中 心 。 距 离 度 量 方法 有 : 欧 氏 距离 、 曼 哈 
顿 距离 、 余 弦 距 离 和 相关 距离 等 。 

本 文 聚 类 实验 中 , 在 考虑 到 光谱 的 特点 并 对 比 多 种 距离 后 选取 相关 距离 作为 距离 度量 方 
法 ， 相 关 距 离 为 4 =1-p， 其 中 jp 为 相关 系数 ， 用 于 判断 随机 变量 X 与 Y 的 相关 程度 ， 其 表 
达 式 为 : 


China ihi Ade HII 
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cov X,Y) — E(X—E(X)(Y—E(Y))) 


81 p= Joe) [DW Joe |b) (1) 
82 p IEW A[-1,1], Zax eK, RH X 与 Y 的 相关 度 越 高 。 

83 1.2 CLARA 聚 类 算法 

84 K-means 聚 类 算法 对 噪声 敏感 度 高 , k 中 心 点 (k-medoids) "82852 Xf k-means 的 改进 ， 


85 k-means 算法 更 新 聚 类 中 心 是 求 取 类 内 平均 值 ， 而 k-medoids 将 每 个 点 代 蔡 聚 类 中 心 ， 降 低 
86 离 群 点 对 聚 类 结果 的 影响 。 


87 k-medoids 算法 基本 步骤 如 下 : 

88 输入 : n SPEARAIRAR TEL ko 

89 输出 : 将 样本 划分 为 大 类 。 

90 (1) 从 nn 个 样本 中 选取 个 初始 点 作为 初始 聚 类 中 心 ; 

91 (2) 计算 所 有 样本 点 到 聚 类 中 心 的 距离 , 将 样本 划分 到 距离 最 近 的 聚 类 中 心 所 在 的 类 ; 
92 (3) 随机 选择 一 个 非 聚 类 中 心 点 ， 计 算 此 点 代替 原 聚 类 中 心 的 总 代价 ， 重 复 此 步骤 直 
93 ”到 所 有 非 聚 类 中 心 点 都 被 判断 过 ; 

94 (4) 判断 每 个 非 聚 类 中 心 点 代替 原 中 心 点 的 总 代价 ， 若 有 小 于 0 的 ， 从 中 挑选 出 总 代 
95 ，” 价 最 小 的 一 个 所 对 应 的 非 聚 类 中 心 点 ， 将 此 点 作为 新 的 聚 类 中 心 ; 

96 (5) 重复 G), (4) 步骤， 直到 聚 类 中 心 点 不 变 ， 聚 类 结束 。 

97 判断 能 否 用 新 的 非 聚 类 中 心 点 Oh 代 符 原 聚 类 中 心 点 0i， 对 于 每 一 个 非 中 心 点 OF 都 要 


98 ”满足 如 下 规则 ;无论 OF 原来 属于 0i 类 还 是 另 一 个 Om 类 ， 当 Oh 替换 Oi, OF 会 分 配给 
99 ”距离 它 最 近 的 类 ， 可 以 是 0i 或 Om， 也 可 以 是 新 的 类 Oh。 
100 新 的 非 聚 类 中 心 点 Oh 代替 原 聚 类 中 心 点 Oi 的 总 代价 是 所 有 非 中 心 点 对 象 产生 的 代价 
101 ”之 和 。 计 算 公 式 如 下 : 


102 T= > Cx (2) 
j=l 
103 其 中 ，Cjih 表示 Oj 在 Oik Oh 代替 后 产生 的 代价 ， 即 OF 到 原 聚 类 中 心 的 距离 与 O1 到 


104 ”新 聚 类 中 心 的 距离 之 差 。 若 总 代价 为 负 ，0i 能 被 Oh 替换 ， 若 总 代价 为 正 ， 则 说 明 原 聚 类 中 
= 105 b 0i 不 需要 变化 。 

106 由 于 k-medoids 聚 类 算法 需要 人 穷 举 类 内 点 以 达到 寻找 最 优 解 的 目的 ， 此 方法 只 适用 于 小 
107 ”规模 数据 。CLARA (Clustering Large Applications) 是 对 k-medoids 聚 类 算法 的 改进 ， 用 抽 
108 ， 样 样本 代表 全 部 数据 计算 聚 类 中 心 ， 能 够 应 用 于 大 规模 数据 聚 类 。 


109 CLARA 算法 基本 步骤 如 下 : 

110 输入 : n 个 样本 ， 聚 类 个 数 k， 抽 样 次 数 m。 

111 输出 : 将 样本 划分 为 k 类 。 

112 (1) 重复 m 次 从 全 部 样本 中 抽取 (40+2k) 个 样本 ， 每 次 重复 执行 (2) ~ (4) ER, 
113 (2) 对 此 样本 集 使 用 k-medoids 聚 类 ， 选 出 大 个 聚 类 中 心 ; 

114 (3) 计算 全 部 样本 中 每 个 非 聚 类 中 心 点 到 聚 类 中 心 的 距离 ， 将 其 划分 到 距离 最 近 的 聚 
115 ”类 中 心 所 在 的 类 ; 

116 (4) 计算 (3) 步 中 的 总 代价 ， 知 小 于 当前 值 ， 则 此 聚 类 中 心 作 为 最 佳 聚 类 中 心 应 用 于 


117 ”全 部 样本 ， 否 则 返回 步 又 〈1) ， 开 始 下 一 循环 。 
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118 2 星系 光谱 聚 类 实验 


119 ”2.1 数据 预 处 理 


120 本 文采 用 的 数据 是 从 LAMOST DRS 的 153093 条 星系 光谱 中 随机 选取 的 30000 条 光谱 。 
121 为 缺少 相应 的 测 光 设备 ，LAMOST 采用 相对 流量 定 标 ， 即 选择 质量 较 好 的 F 型 矮星 


122 作为 标准 星 ， 得 到 仪器 的 响应 曲线 ， 但 是 这 些 标 准星 的 红 化 可 能 导致 连续 谱 的 不 确定 性 ， 因 
123 ”此 ， 需 要 对 光谱 进行 重 定 标 。 本 文采 用 SLOAN 的 ugr,iz 波段 的 fiber 星 等 ， 在 一 定 程度 上 
124 ”校正 LAMOST 的 连续 谱 。 


125 重 定 标 之 后 对 光谱 进行 退 红 移 处 理 ， 将 其 移 至 静止 波长 后 ， 对 光谱 进行 重 采 样 ， 采 样 波 
126 ”长 区 间 为 3600-9000A， 采 样 间 隔 为 1A。 
127 为 避免 噪声 、 环 境 等 因素 的 影响 ， 需 要 对 光谱 进行 流量 标准 化 ， 本 文采 用 9 标准 化 方 


128 ”法 。 假设 x 是 一 条 光谱 ，, 记 为 x=(w,%…,x%,) ， 它 是 n 维 欧 氏 空间 中 的 一 个 向 量 , 流量 标准 
129 WTA: 


n 


130 y=x/ >a (3) 
Am i=l 
00 131 在 去 除 无 法 进行 重 定 标 和 红 移 为 坏 值 的 光谱 后 ， 剩 余 27272 条 星系 光谱 用 于 聚 类 实验 。 
132 2.2 聚 类 实验 
133 使 用 k-means 聚 类 算法 和 CLARA 聚 类 算法 对 LAMOST DR5 中 星系 光谱 进行 聚 类 。 实 
134 ” 验 分 为 两 层 , 第 一 层 用 k-means 将 星系 光谱 分 为 吸收 线 星系 和 发 射线 星系 , 第 二 层 用 CLARA 


135 ”将 发 射线 星系 光谱 细 分 类 。 

136 第 一 层 ， 使 用 k-means 聚 类 算法 ， 将 预 处 理 后 的 27272 条 星系 光谱 分 为 发 射线 星系 和 吸 
137 ” 收 线 星系 ,以 年 老 恒星 为 主 的 早 型 星系 的 光谱 以 吸收 线 为 主 , 发 射线 很 弱 甚 至 无 法 被 探测 到 ， 
138 ”相对 年 轻 的 晚 型 星系 中 有 一 部 分 与 早 型 星系 相似 , 发 射线 很 弱 , 更 晚 型 的 星系 中 吸收 线 逐 渐 
139 ”失去 主导 地 位 , 发 射线 越 来 越 明 显 。 为 使 发 射线 和 吸收 线 特征 更 为 突出 , 将 光谱 去 除 连续 谱 。 


140 ”这 里 采用 中 值 滤波 方法 拟 合 连 续 谱 , 用 光谱 流量 减 去 连续 谱 得 到 谱 线 信息 , 对 谱 线 信息 进行 
141 FE. 

142 考虑 到 还 有 同时 具有 发 射线 和 恒星 成 分 的 一 类 星系 ， 选 取 上 值 为 3， 用 k-means++ 方 法 
143 ”获取 初始 聚 类 中 心 ， 使 用 相关 距离 作为 距离 度量 方法 。 

144 第 二 层 ， 使 用 CLARA 聚 类 算法 ， 将 第 一 层 聚 类 得 到 的 发 射线 星系 再 进行 细 分 类 。 连 续 


145 ” 谱 可 以 反映 出 一 部 分 发 射线 星系 的 特征 ， 因 此 这 一 层 聚 类 不 需要 去 除 连续 谱 。 选 取 r 波段 信 
146 ” 品 比 大 于 5 的 共 12689 条 星系 光谱 。 为 避免 天 光线 的 影响 ， 用 中 值 滤波 法 去 噪 ， 滤波 窗口 宽 
147 ” 度 为 5。 考 上 处 到 一 部 分 样本 仅 在 波长 为 3600-7900A 有 流量 值 ， 且 CLARA 聚 类 算法 依赖 于 
148 ”样本 点 ， 所 以 选择 3600-7900A 范围 内 的 光谱 进行 实验 。 

149 抽样 次 数 为 100， 使 用 相关 距离 作为 距离 度量 方法 。 为 选取 较 优 的 k 值 ， 画 出 SSE ik 
150 ”内 误差 平方 和 ) pE k 值 变 化 曲线 , 依据 肘 部 法 则 , 在 k=5 时 观察 到 明显 肘 型 ， 因 此 选取 k=5。 
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153 Fig.1 The graph of SSE changing with k value. 
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3 星系 光谱 聚 类 结果 分 析 


k-means 聚 类 算法 将 27272 条 星系 光谱 分 为 三 秘 cluster1，cluster2，cluster3， 通 过 每 一 
PRED (图 2) 可 以 看 出 其 星系 类 型 。 发 射线 星系 光谱 以 发 射线 为 主 ，clusterl 发 射 
线 明显 , 为 恒星 成 分 很 弱 的 强 发 射线 星系 , 吸收 线 星系 光谱 吸收 线 占 主 导 地 位 ， 发 射线 很 弱 
甚至 无 法 被 探测 到 ， 由 此 看 出 cluster2 属于 吸收 线 星系 ，cluster3 发 射线 弱 ， 为 有 恒星 成 分 
的 弱 发 射线 星系 。 
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图 2 第 一 层 聚 类 的 聚 类 中 心 。 左 、 中 、 右 图 分 别 为 cluster1、cluster2 和 cluster3 的 聚 类 中 心 


Fig.2 The clustering centers of the first layer.The clustering center of clusterl,cluster2 and cluster3 are shown on the left,middle and right. 


为 探究 聚 类 的 稳定 性 ,将 k-means 聚 类 方法 应 用 于 不 同 信 噪 比 子 集 ， 分 别 从 27272 条 星 
系 光 谱 中 取 工 波段 信 噪 比 大 于 5、10、15、20 的 四 个 子 集 ， 分 别 包含 23465、15593、9120、 
5166 条 光谱 数据 。 将 k-means 用 于 每 个 子 集 ， 得 到 的 聚 类 中 心 见 图 3， 图 3 中 四 行 图 分 别 为 
r 波段 信 品 比 大 于 5、10、15、20 的 四 个 子 集 的 聚 类 中 心 ， 为 了 便于 比较 将 得 到 的 聚 类 中 心 
分 别 按 发 射线 星系 、 吸 收 线 星 系 和 弱 发 射线 星系 排列 , 三 列 分 别 为 clusterl scluster2 和 cluster3 
PRINZE, mem 表示 此 类 所 含 样本 个 数 ， 由 不 同 子 集 的 聚 类 中 心 都 能 反映 出 发 射线 星 
系 、 吸 收 线 星系 和 弱 发 射线 星系 可 以 看 出 ，k-means 聚 类 算法 能 够 稳定 聚 类 出 这 三 种 星系 。 
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FP 心 ， 三 列 分 别 为 


图 3 不 同 信 品 比 子 集 的 聚 类 中 心 。 四 行 由 上 至 下 分 别 为 + 波段 信 品 比 大 于 5、10、15、20 的 四 个 子 旨 
每 个 子 集 的 三 个 聚 类 中 心 ， 其 中 mem 表示 此 类 所 含 光谱 数 。 


Fig.3 The clustering centers of different SNR subsets. The four rows from top to bottom are the cluster centers of the four subsets with 


r-band SNR greater than 5, 10, 15, and 20, and the three columns are the three cluster centers of each subset, where mem indicates the 


number of data in the cluster. 
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计算 每 一 条 光谱 与 每 个 聚 类 中 心 的 距离 ， 第 i 个 艇 cluster i 的 每 一 个 样本 与 第 j 个 聚 类 
中 心 center j 的 距离 统计 图 见 图 4， 其 中 三 列 图 分 别 为 三 个 复 中 每 一 个 样本 与 聚 类 中 心 的 距 
离 统计 图 ， 不 同 颜色 代 表 不 同 信 噪 比 数据 集 。 整 体 来 看 ，cluster i 与 其 本 身 的 聚 类 中 心 距离 
相 较 于 其 他 聚 类 中 心 更 近 。 由 图 4 中 左 列 可 以 看 出 秘 cluster 1 与 centerl 的 距离 靠近 0， 与 
男 两 个 聚 类 中 心 距离 远 ， 明 显 的 三 个 峰 表明 第 一 个 簇 与 男 两 个 簇 区 分 度 明 显 。 艇 cluster2 和 
cluster3 在 同一 信 噪 比 子 集 下 ， 上 距离 其 本 身 的 聚 类 中 心 距离 更 近 ， 如 网 中 第 二 列 cluster2 在 
信 品 比 大 于 0 时 (红色 ) ,距离 center1-3 的 统计 图 峰值 分 别 为 1、0.65、0.8。 虽 然 饼 cluster2 
和 cluster3 与 其 类 内 聚 类 中 心 的 距离 分 布 没 有 接近 0， 但 是 从 不 同 信 品 比 子 集 下 的 距离 分 布 
可 以 看 出 ， 随 着 信 品 比 的 提高 ， 艇 cluster2 和 cluster3 与 其 类 内 聚 类 中 心 的 距离 越 来 越 靠近 
0， 如 cluster2-center2 图 中 ， 随 着 信 噪 比 的 提高 ， 峰 值 从 0.65 BER 0.4。 

每 个 样本 与 聚 类 中 心 相关 距离 分 布 也 代表 着 类 内 距离 分 布 ,类 内 光谱 的 全 加 得 到 的 肾 类 
中 心 信 噪 比 提高 ， 与 相对 信 噪 比较 低 的 样本 数据 的 相关 性 达 不 到 1， 所 以 cluster2-cneter2 和 
cluster3-center3 的 距离 分 布 没 有 接近 0。 从 这 个 分 布 情况 也 可 以 看 出 cluster2 和 cluster3 的 类 
内 分 布 不 够 紧 致 。 
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图 4 第 一 层 聚 类 艇 与 聚 类 中 心 的 距离 统计 图 。 图 为 第 i Mk cluster i 的 每 一 个 样本 与 第 j 个 聚 类 中 心 center j 的 距离 统计 
图 ， 颜 色 表示 不 同 信 品 比 数据 集 。 


Fig.4 The distance statistical graph of the clusters and the cluster centers of the first layer. The figure shows the distance statistics of each 


sample of the i-th cluster cluster i and the j-th cluster center center j, and the colors represent different signal-to-noise ratio data sets. 

将 此 聚 类 结果 与 传统 分 类 方法 的 结果 进行 比较 。 传 统 区 分 吸收 线 星 系 和 发 射线 星系 , 党 
使 用 S/N; >3 作 为 判断 依据 , 这 里 S/N; 为 谱 线 4 的 信 噪 比 。 文 [3-4] 筛 选 发 射线 星系 对 五 aw 、 
HB ~ 、[O17]45007 和 [N17]46585 四 条 谱 线 都 采用 S/N >3 的 筛选 条 件 ， 但 Cid Fernandes"! 
等 人 发 现 , 对 四 条 谱 线 都 进行 筛选 会 使 一 些 弱 发 射线 星系 被 忽略 ， 所 以 本 文 只 对 五 c BEAT Si 
选 。 

聚 类 结果 中 clusterl 和 cluster3 为 发 射线 星系 ，cluster2 为 吸收 线 星 系 ， 与 用 Ha 分 类 的 
结果 进行 比较 〈 表 1) , RRARSH He 分 类 的 结果 一 致 的 数目 在 聚 类 每 一 类 中 的 占 比 分 
Ai: 97.79%, 80.80%, 84.52%. X FÆR, k-means 聚 类 结果 中 有 89.0% 的 星系 与 Ha 
分 类 结果 一 致 。 


表 1 k-means 聚 类 结果 与 Ha 筛选 结果 数目 比较 
Tab.1 The comparison of the number between k-means and Ha detection 


数目 〈 类 内 百分比 ) Ha 算 选 为 发 射线 星系 Ha 筛选 为 吸收 线 星 系 总 计 
clusterl 〈 发 射线 星系 ) 12109 (97.79%) 274 (2.21%) 12383 
cluster2〔 吸 收 线 星系 ) 2169 (19.20%) 9126 (80.80%) 11295 
cluster 3 发 射线 星系 ) 3038 (84.52%) 556 (15.47%) 3594 


总 计 17316 9956 27272 


208 每 个 簇 的 光谱 的 颜色 星 等 图 见 图 5， 黄 色散 点 为 全 部 光谱 样本 分 布 ， 黑 色散 点 为 每 一 簇 
209 ”中 光谱 的 分 布 。 颜 色 星 等 图 服从 双 峰 分 布 ， 两 端 分 布 为 红色 和 蓝 色 部 分 ， 过 渡 区 为 绿 谷 ， 可 
210 ”以 明显 看 出 发 射线 星系 cluster] 分 布 在 蓝 色 区 域 ， 吸 收 线 星 系 cluster2 分 布 在 红色 区 域 ， 具 
211 ”有 弱 发 射线 的 cluster3 分 布 在 绿 谷 ， 这 符合 早 型 星系 大 多 为 红色 ， 晚 型 星系 大 多 为 蓝 色 的 基 
212 ”本 规律 。 
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214 sid i ar 
215 图 5 第 一 层 聚 类 结果 的 颜色 星 等 图 。 左 、 中 、 右 图 分 别 为 cluster1、cluster2 和 cluster3 的 的 颜色 星 等 图 ， 
216 其 中 黄色 散 点 为 全 部 光谱 样本 ， 黑 色散 点 分 别 为 每 一 类 光谱 样本 
217 Fig.5 Plots of u-g vs. g-r of the first layer of clustering.The plots of u-g vs. g-r of clusterl,cluster2 and cluster3 are shown on the 
218 left,middle and right. The yellow scatter points is the whole spectral samples and the black scatter points is the spectrum of each class 
219 
sp ar > Nae Ma 5 Vy if HX HK > > 
220 由 实验 结果 可 以 看 出 k-means RREA, RE a I E RRR NIERE R 


221 ”和 发 射线 星系 ， 对 于 大 规模 数据 ，k-means 3825 tH ABREU, RARER 
222 ”物理 性 质 ， 与 传统 分 类 结果 基本 一 致 ， 因 此 k-means 聚 类 方法 对 星系 分 类 是 可 行 的 ， 聚 类 中 
223 心 可 以 为 星系 自动 分 类 pipeline 提供 模板 ， 与 基于 谱 线 分 析 得 到 的 高 信 噪 比 模板 ， 此 模板 抗 
224 EPE 


225 3.2 第 二 层 聚 类 结果 分 析 


226 用 CLARA 聚 类 将 第 一 层 聚 类 中 的 发 射线 星系 分 为 emil-emi5 五 个 子 类 ， 其 数目 及 类 型 
227 WH 2， 其 聚 类 中 心 是 类 内 的 一 条 光谱 〈 图 6 第 一 列 ) 。 
228 表 2 第 二 层 聚 类 结果 
229 Tab.2 The result of second layer clustering 
类 名 称 数 星系 类 型 
emil 2600 SF、 composite、AGN 
emi2 2018 SF 
emi3 3576 SF、 composite、AGN 
emi4 1751 SF 
emi5 2744 composite、AGN 
230 
231 与 第 一 层 聚 类 相同 ， 计 算 每 一 条 光谱 与 每 个 聚 类 中 心 的 距离 ， 得 到 第 i TK cluster i 的 


232 ”每 一 个 样本 与 第 j 个 聚 类 中 心 center j 的 距离 统计 图 ， 结 果 表 明 每 个 艇 到 其 聚 类 中 心 最 近 ， 

233 ”接近 于 0， 到 其 他 聚 类 中 心 相 对 较 远 ， 每 个 秘 对 五 个 聚 类 中 心 的 距离 统计 图 都 有 五 个 明显 峰 
234 ” 值 ， 可 以 表明 类 间 区 分 度 明显 。 

235 聚 类 结果 与 BPT 图 分 类 相 比 较 ， 用 BPT 分 类 法 求 每 一 类 中 每 条 光谱 的 类 型 。BPT 图 分 
236 ”类 方法 基于 线 强 比 ， 需 要 测量 Ha 、HB 、[O111]45007 和 [N17]46585 四 条 谱 线 的 线 强 。 普 

237 ” 遍 认 为 星系 光谱 是 由 多 种 恒星 光谱 组 合 而 成 ， 首 先 用 星 族 分 析 软 件 STARLIGHT WEER 

238 ”光谱 中 的 恒星 成 分 , 之 后 用 原 星系 光谱 减 去 拟 合 谱 ,得 到 包含 发 射线 、 品 声 和 低频 背景 成 分 


239 ”的 光谱 ,然后 用 窗口 宽度 为 201 的 中 值 滤波 去 除 低频 背景 成 分 ,最 后 分 别 使 用 单 高 斯 拟 合 来 
240 WA AB AON ]A5007 线 ， 用 多 高 斯 拟 合 来 拟 合 [N17]46548 、Ha 、[NI11]46585 三 条 谱 线 ， 
241 ”利用 公式 (4) HARR HEF A, FA, 为 谱 线 对 应 波长 的 两 端点 ， 万 (4) 为 观测 流量 ， 灭 (4) 
242 ”为 连续 谱 。 


243 Intensity = f (F, (4) -F(a (4) 
244 由 于 星 族 成 分 合成 过 程 对 光谱 质量 要 求 较 高 和 部 分 发 射线 太 弱 导致 无 法 高 斯 拟 合 等 问 


245 W, 仅 有 8122 条 发 射线 星系 光谱 用 BPT 方法 求 得 其 类 型 ，emil-emi5 五 类 对 应 BPT 分 类 结 
246 RIK 3。 将 每 一 类 结果 在 BPT 图 中 表示 (图 6 中 列 ) ， 其 中 背景 密度 图 是 所 有 发 射线 星 
247 AM BPT 图 分 布 ， 红 色散 点 是 每 一 类 中 所 有 光谱 在 BPT 图 中 对 应 的 点 。 


248 
249 表 3 第 二 层 聚 类 结果 与 BPT 图 分 类 法 的 比较 结果 
250 Tab.3 The comparison between second layer clustering results and BPT classification method 
数目 (类 内 百分比 ) SF composite LINER Seyfert2 总 计 
— emil 789(53.86%) 406(27.71%) 60(4.09%) 210(14.33%) 1465 
emi2 1297(84.00%) 177(11.46%) 55(0.97%) 15(3.56%) 1544 
emi3 1587(68.38%) 485(20.90%) 71 (3.06%) 178(7.67%) 2321 
emi4 1386(84.31%) 127(7.73%) 8(0.49%) 123(7.48%) 1644 
emi5 443(38.58%) 396(34.49%) 106(9.23%) 203(17.68%) 1148 
251 
252 6 第 二 列 BPT 图 中 , 红色 的 经 验 分 割 线 为 Kauffmann 电 等 人 提出 的 纯 恒 星 形成 星系 分 


253 ÑR, EK KO3 (公式 5) ， 此 线 以 下 为 恒星 形成 星系 。 蓝 色 分 割 线 为 Kewleyt 等 人 提出 的 
254 ” 纯 活 动 星系 核 分 割 线 ,简称 KOL (公式 6) ， 此 线 以 上 为 活动 星系 核 ， 混 合 型 星系 位 于 K03 
255 ”与 K01 分 割 线 之 间 。 绿 色 分 割 线 为 Cid Fernandes" 等 人 提出 的 用 于 区 分 Seyfert2 和 LINER 
256 ”的 分 割 线 ,简称 CF10 (公式 7) ， 此 线 以 上 为 Seyfert2 星系 ， 以 下 为 LINER 星系 。 


257 log; ((OMT]/ HB) =0.61/[log yo (LNHI]/ Ha) — 0.05]+1.3 (5) 

= 258 log o ([OMT]/ HB) = 0.61/[log o (LNT / Ha) — 0.47] +1.19 (6) 
259 log o ([OLI]/ HB) = 0.01 * log; ([NIIT]/ Ha) + 0.48 (7) 
260 从 聚 类 结果 的 BPT 图 和 表 3 中 各 类 星系 的 数量 可 以 看 出 emil 大 部 分 分 布 在 K01 分 割 
261 ” 线 之 下 ,包括 恒星 形成 星系 和 混合 型 星系 ; emi2 大 部 分 在 K03 分 割 线 之 下 ， 有 84.00 允 光谱 


262 ”为 恒星 形成 星系 ; emi3 与 第 一 类 相似 ， 大 部 分 为 恒星 形成 星系 ， 包含 少量 AGN 星系 ; emi4 
263 ”位 于 K03 分 割 线 之 下 ,有 84.31% 的 光谱 为 恒星 形成 星系 ,不 同 于 第 二 类 ,emi4 的 [O17]45007 
264 ”与 8B 的 线 强 比 偏 大 ， 对 应 聚 类 中 心 光谱 ，emi4 FAR emi2 发 射线 更 强 ， 连 续 谱 更 平缓 ， 吸 
265 ” 收 线 成 分 更 弱 ; emi5 中 有 61.42% 的 星系 为 复合 型 星系 和 AGN 星系 ， 与 emi2 和 emi4 这 两 
266 ”类 恒星 形成 星系 相 比 ，emi5 的 聚 类 中 心 光 谱 的 恒星 成 分 占 主 导 地 位 ， 发 射线 很 弱 ， 而 emi2 
267 ”和 emi4 的 聚 类 中 心中 发 射线 很 强 ， 占 主导 地 位 。 整 体 来 看 恒星 成 分 越 少 ， 发 射线 越 强 ， 星 
268. AE BPT 图 中 分 布 越 偏向 于 恒星 形成 星系 ， 这 符合 恒星 形成 星系 的 特点 ， 这 类 星系 具有 大 
269 ” 量 恒星 形成 区 , 能 够 观测 到 来 自 中 央 区 域 的 强 窜 发 射线 , 这 在 emi2 和 emi4 的 聚 类 中 心 光 谱 
270 ”中 也 有 所 体现 。 
271 将 聚 类 结果 的 颜色 星 等 图 画 出 (图 6 第 三 列 ) ， 黄 色散 点 是 包括 吸收 线 星 系 在 内 的 所 有 
272 星系 光谱 对 应 的 颜色 星 等 图 ， 黑 色散 点 是 第 二 层 聚 类 中 每 一 类 对 应 的 颜色 星 等 图 。 从 emi2 
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图 6 第 二 层 聚 类 的 聚 类 中 心 `.BPT 图 和 颜色 星 等 图 。 左 、 
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AAA ARR PO BPT 图 和 颜色 星 等 图 , 1-5 行 分 别 为 emil-emi5 


类 。BPT 图 中 黑色 背景 密度 图 为 全 部 发 射线 星系 样本 分 布 ， 红 色散 点 分 别 为 每 一 类 的 光谱 样本 ， 颜 色 星 等 图 中 黄色 散 点 为 全 部 


光谱 样本 ， 黑 色散 点 分 别 为 每 一 类 光谱 样本 


Fig.6 The clustering centers , u-g vs. g-r plots and BPT diagram of the second layer of clustering.The left,middle,right column are 


clustering centers,BPT diagram and u-g vs. g-r plots,and lines 1-5 are emil-emi5.In the PBT diagram,the black background density map 


shows the sample distribution of all emission line galaxies,and the red scatter points is sample distribution of emil-emi5.In the u-g vs. g-r 


plots,the yellow scatter points is the whole spectral samples and the black scatter points is the spectrum of each class 


和 emi4 可 以 看 出 SF 更 偏向 于 赣 色 ， 且 发 射线 越 强 颜色 越 赣 ，emil 和 emi3 属于 绿 谷 ，emi5 
更 偏向 于 红色 , 这 与 目前 提出 的 AGN 星系 更 可 能 为 早 型 星系 的 观点 0 一 致 。 同 时 , 从 emi2、 
emi4 到 emil, emi3 最 后 到 emi5， 随 着 AGN 数量 的 增加 ， 在 颜色 星 等 图 上 反映 出 从 蓝 色 到 


红色 的 变化 过 程 , 这 与 Schiawinskit 提出 的 AGN 活动 抑制 了 恒星 的 形成 ,因此 它 可 能 是 星 


系 颜色 穿越 绿 谷 的 原因 这 一 观点 一 致 。 


BPT 图 分 类 方法 步 又 复杂 ， 对 光谱 质量 要 求 高 ， 实 验 第 二 层 中 发 射线 星系 能 全 部 被 
CLARA 算法 划分 ,而 BPT 图 只 能 分 类 出 其 中 的 一 大 部 分 ， 由 此 可 以 看 出 CLARA 算法 的 优 


越 性 。CLARA 算法 对 光谱 质量 要 求 低 ， 不 需要 拟 合 恒星 成 分 ， 方 法 简 和 


# 有效， 针对 大 规模 


映 出 星系 的 演化 过 程 。 


1 


4. 结 论 


星系 光谱 能 够 快速 有 效 分 类 , 适用 于 大 规模 数据 上 自动 分 析 处 理 , 同时 分 类 结果 能 够 很 好 地 反 


针对 LAMOST DRS 星系 光谱 数据 ， 使 用 k-means 聚 类 算法 成 功 将 星系 光谱 分 为 吸收 线 
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c nInaă IVa 


星系 和 发 射线 星系 ， 与 基于 谱 线 检测 的 分 类 结果 基本 一 致 。k-means 聚 类 算法 简单 高 效 ， 适 
用 于 大 规模 星系 光谱 自动 分 析 处 理 , 聚 类 结果 能 够 良好 地 反映 出 星系 的 性 质 , 与 传统 分 类 结 
果 基 本 一 致 , 因此 聚 类 方法 对 星系 分 类 是 可 行 的 , 聚 类 中 心 能 够 为 星系 光谱 自动 分 类 提供 三 
种 类 型 模板 ， 相 较 于 基于 谱 线 分 析 得 到 的 高 信 品 比 模板 ， 聚 类 中 心 作为 模板 抗 噪 性 更 强 。 

使 用 CLARA 聚 类 算法 将 发 射线 星系 细 分 类 , 结果 与 BPT 图 分 类 和 颜色 星 等 图 分 类 结果 
存在 预期 的 相关 性 ， 能 够 反映 出 星系 的 演化 过 程 。CLARA 聚 类 算法 对 光谱 质量 要 求 较 低 ， 
不 需要 拟 合 恒星 成 分 ,方法 简单 有 效 ， 能 够 直接 依据 谱 线 特 征 实现 自动 聚 类 ， 适 用 于 大 规模 
数据 自动 分 析 处 理 ， 能 够 为 光谱 自动 分 类 pipeline 提供 模板 。 
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Abstract: Various large-scale sky survey plans release massive astronomical data. It is 
necessary to study the spectral automatic processing methods for large-scale data. It is difficult to 
apply the traditional galaxy spectral classification methods based on spectral line measurement or 
BPT diagram to automatic galaxy spectra classification pipeline directly. In contrast, machine 
learning method is more suitable for the classification and analysis of massive astronomical data. 
This paper proposes a galaxy spectral analysis method based on double hierarchical clustering. 
The first layer uses K-means clustering method to classify galaxy spectra into absorption line 
galaxies and emission line galaxies; the second layer uses Clustering Large Applications 
clustering algorithm to gather emission line galaxies into five subtypes. We experiment with 
galaxy spectral data from LAMOST DRS and analyze the result in detail by spectral line detection, 
BPT diagram and color magnitude map.The experimental results show that: (1) The first layer 
K-means clustering can classify Galaxy spectra into absorption line galaxies and emission line 
galaxies successful, which are consistent with the classification results based on spectral line 
detection. (2) The results of CLARA cluster in the second layer can reflect different galaxy types 
in BPT diagram. (3) There is an expected correlation between spectral clustering results and color 
magnitude classification. (4) The two-layers clustering can be applied to large-scale data 
automatic analysis and processing. The clustering results can reflect the physical properties and 
evolution process of the galaxies.And the cluster centers can provide templates for automatic 
spectral classification pipeline. 

Key words:_LAMOST; Clustering; Galaxy spectra classification; Large scale spectral 
analyze 


